Musical Composition Style Transfer via Disentangled Timbre Representations
#survey #Music_Generation #Music_Style_Transfer #IJCAI #2019
ShuKumata.icon
Author: Yun-Ning Hung, I-Tung Chiang, Yi-An Chen, Yi-Hsuan Yang
Research institute: Academia Sinica, KKBOX Inc
The problem the authors try to solve:
Link to This Paper: https://arxiv.org/abs/1905.13567
1枚まとめ
https://gyazo.com/23bb7180cf87e0feba20c44c868e630f
https://docs.google.com/presentation/d/1XbyQKYknzh5kvUvIaF4afehztslbz4kmo5KT9Is5pUA/edit?usp=sharing
1. どんなもの? 問題意識は?
Music Style Transferの中でもMusic Rearrangement(Composition Style Transfer)のタスクに対して、Music Transcriptionを行うネットワークを用いるアプローチで取り組んだ論文。
例えば、あるジャンルの曲を別ジャンルの曲に変えるタスクは、それぞれのジャンルの特徴を十分知った上で行わなければならず、人間でも数年の訓練が必要なほど難しいタスクである。機械だと、入力の曲のpitchをキープするだけでなく、それぞれの楽器がどの音程幅を演奏できるのかや楽器間の関係性を把握しておく必要がある。さらに、必要な対となるデータは十分に存在しない。
入力をAudio、出力を楽譜(どの音がどの楽器によって演奏されているか)とするネットワークを構築し、音楽の音色(timbre)と音の高さ(pitch)の潜在変数をdisentangleできるように敵対的に学習する。
二つのモデルを提案
AudioとMIDIのpairデータがあれば、学習できる
Audioがあれば、どんな音楽でもrearrangeできる
モデルとしてはAudioを入力として、CQTで画像的に変換し、AutoEncoder的に
潜在変数からピアノロールを出力するDecoderも学習させる
skip-connectionを用いてtimbreの潜在変数だけ抽出するモデルと、timbreとpitchの潜在変数を2つのEncoderと敵対的な学習でdisentangleに抽出するモデルの2通りを実験
音色変換を行う際は、音色の潜在変数を別楽器のものに置き換えてピアノロールを出力させる。
器楽編成を変えることをやっている
2. 先行研究と比べてどこがすごい?
筆者の知る限りではどんなPolyphonicな音楽もMusic Rearrangementできるようになった最初の論文。
筆者の知る限りではLearning disentangled representations for timber and pitch in music audio(同一著者)が音楽のAudioからdisentangleな表現を学習した唯一の論文であるが、その内容を発展させて、モデルの包括的な評価とMusic Rearrangementへの応用を行なった。
3. 技術や手法のキモはどこ?
入出力のデータ表現
入力はどんな長さのAudioでも可能
AudioをCQT(time-frequency representation)に変換して、full-convolutionalなencoder, decoderで扱う。
STFTよりもlogarithmic frequency scaleを利用している点でCQTが良い
pitchの認識において良い byDeep salience representations for f0 tracking in polyphonic music
低周波数域で解像度が良いため、重要な周波数域を検出するのに役立つ
出力は、ピアノロール形式
モデル
DuoED Model
Exploring disentangled feature representation beyond face identificationにinspired
Encoder-Decoderのバイナリクロスエントロピーをそれぞれ最小化する
Encoder
入力画像$ X_{cqt}をtimbreの潜在表現$ Z_tにencodeする$ E_t
入力画像$ X_{cqt}をpitchの潜在表現$ Z_pにencodeする$ E_p
潜在表現は画像のstyle transferをする際のようにvectorではなく、時間軸を示すためにmatrix
Decoder
timbreの潜在表現$ Z_tから実際のtimbre$ X_tを予測する$ D_t(分類器)
pitchの潜在表現$ Z_pから実際のpitch$ X_pを予測する$ D_p
2つの潜在表現$ Z_t, Z_pから実際のピアノロール$ X_{roll}を予測する$ D_{roll}
Adversarial training
$ Z_tに$ D_pを用いて実際のpitch$ X_pの予測と$ Z_pに$ D_tを用いて実際のtimbre$ X_tの予測を行い、その出力が全て0になるように学習させる
$ Z_tにpitchの情報が、$ Z_pにtimbreの情報が含まれないようにするため
timbreとpitchにのみこの作業を行う。
UnetED Model
#詳細は後日更新
実際にスタイル変換するやり方
e.g. あるスタイルの音楽Aを別のスタイルの音楽Bのスタイルに変換する
Aからpitchの潜在表現を、Bからtimbreの潜在表現を得て、これらを用いてpiano rollを出力する
4. どうやって有効だと検証した?
1秒ごとにその楽器が含まれているかを判定するタスク(Instrument Activity Detection)のAUC score
音色の潜在変数が適切に抽出されていることを検出するため??
#詳細は後日更新
Music Rearrangementの評価
音色の変換を行ったあとの曲をsubjectに聞いてもらって、リズム・ハーモニー・全体的な観点から4段階へ評価してもらい、UnetEDがもっともいい成績だった。
5. 議論はある?
6. 次に読むべき論文は?
Learning disentangled representations for timber and pitch in music audio
Audioから音色と音程をdisentangleして学習した論文
A two-step disentanglement method
画像のstyle変換の論文。subjectによる評価の際のベースラインにしている。
Timbre Style Transferの関連研究
Play As You Like: Timbre-Enhanced Multi-modal Music Style Transfer
Neural audio synthesis of musical notes with wavenet autoencoders
Composition Style Transferの関連研究
Neural style transfer for musical melodies
Conceptual blending of harmonic spaces for creative melodic harmonisation
Disentangle for style transfer
Image
Image style transfer using convolutional neural networks
Image style transferの最初の論文
Diverse image-to-image translation via disentangled representations
Exploring disentangled feature representation beyond face identification
Music
MIDI-VAE: Modeling dynamics and instrumentation of music with applications to style transfer
7. メモ
リンク
https://github.com/biboamy/instrument-disentangle
著者の実装
#音色の生成・変換
#Polyphonic
#Multi-track
#Audio
#CQT